min rank | avg. rank | sentence |
---|---|---|
3187 | 37231.4000 | Establiĝis kvazaŭŝtataj, neoficialaj administraj strukturoj. |
2237 | 20511.6000 | Akra malvarma vento alportas pluvnebulojn. |
1503 | 25427.0000 | Malpeza, rompiĝema, kemie aktiva metalo. |
1502 | 25922.2857 | Sinsekve diferencaj komponantoj formiĝas : chanoclavine→agroclavine→elymoclavine→paspalika acido→liserga acido. |
1419 | 19540.3000 | Apude Bob Geldof organizis manifestaciojn nomitaj Make Poverty History. |
1387 | 7310.1111 | Oxford, UK; New York, NY: Oxford University Press. |
1326 | 22416.2500 | Robert Browning redaktis ŝiajn Finajn Poemojn (1861). |
1308 | 41251.0000 | Alexander SCHWARTZ (ŝvarc), germano, komercisto, (privata sekr.) Nask. |
1165 | 13939.4444 | BAR International Series 71, II, Oxford 1980, S. 567-586. |
1124 | 24932.2222 | Petr Chrdle (vicprezidanto), Pavel Polnický (sekretario), Mgr. |
899 | 27085.3750 | Demokrata Partio - demokratoj.pl ( pole Partia Demokratyczna - demokraci. |
875 | 2449.3750 | Oxford and New York: Oxford University Press. |
857 | 25317.5714 | Popersona enspezo superas 699 usonajn dolarojn jare. |
716 | 5702.7143 | Oxford University Press, Oxford 1990, ISBN 0-19-553068-3. |
686 | 13899.0000 | Fritz Wicke, 64 paĝoj, 1922 - 2e eldono. |
686 | 19203.5000 | Grey, Nga Mahi a Nga Tupuna, kvara eldono. |
622 | 9717.9091 | Harvard University Press, Cambridge, MA 1989, S. 213–223, ISBN 0-674-17728-2. |
622 | 21389.3333 | III – Gartendenkmalpflege, eldonejo Nicolaische Verlagsbuchhandlung, 3-a eldono, Berlino 1989, ISBN 3-87584-267-7; rubr. |
599 | 18779.1429 | Koŝia spaco donas ĝeneralan eblecon studi plenigojn. |
576 | 31997.7500 | Blendodikeco — zono : 200-300 mm; transversaj septoj : 203-208 mm. |
535 | 11896.2500 | Norda marborda Kalifornio, centra marbordo Kalifornio, San-Franciska Golfareo. |
532 | 3590.4286 | New York: Columbia University Press, 2003. |
531 | 21651.1250 | Germanoj nomis tiujn eventojn „Bromberger Blutsonntag”, komencante represiojn. |
519 | 10786.3750 | Geografia situo 159º 57' oriente 9º 26' sude. |
481 | 24620.8000 | Raukaŭa povus signifi "maldolĉaj folioj". |
480 | 27253.2000 | D. (t.e. latine doctor legium, doktoriĝinta juristo), irlandano, juĝisto ktp. |
432 | 34042.2500 | Juozas Baltušis kreis rakontkolekton Valiusei reikia Alekso (Valiusė bezonas Alekson, 1965 ). |
427 | 17311.4000 | Kion Parizo aplaŭdas, Berlino mallaŭdas. |
420 | 22945.6000 | Tial Campanella neniam priridatas Giovanni. |
408 | 5204.7778 | Kvar helpantoj devus havi sekvantaj metioj * ligna metio (ekz. |
In contrast to subsection 4.5.2.1 we now search for sentences consisting of rare words only. The sentences are ordered by the rank of the most frequent word in a sentence. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The sentences are forced not to contain any everyday word. As a consequence, we get either sentences of some very reduced structure or sentences in some foreign language. Hence, the data are useful for the evaluation of the preprocessing, especially language detection.
select min(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m desc limit 30;
Should we remove the sentences having its least frequent word above some threshold?
4.5.2.1 Maximum word rank in sentence
4.5.2.2 Average word rank in sentence
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II